寻找最新最佳的3D 视觉人工智能。浏览最全面的AI数据库,每日持续更新。
最新
Mago Studio 是一款先进的人工智能视频工具,专为旨在精确、灵活地转换任何素材的创意专业人士设计。它通过视频到视频的工作流程,使用户能够轻松地为实景拍摄或 3D 动画添加风格。该工具特别适用于动画、电影、游戏过场动画和广告制作,有助于降低制作成本并加快创意工作流程。它的功能扩展到使雄心勃勃的视觉概念得以实现,使创作者能够探索独特的审美,提升音乐
Stable Diffusion 3.5 是 Stability AI 发布的一款强大的文生图生成模型,具有多种针对不同创意和专业需求的模型变体。此次发布包括 Stable Diffusion 3.5 Large、Large Turbo 和 Medium 版本,每个版本都旨在平衡图像质量、速度和提示词遵循度。这些模型使用户能够创建具有卓越保真度的高质量
Depth Anything 3 (DA3) 是一个能够从任意数量的视觉输入(有或没有已知的相机姿态)中预测空间一致几何形状的模型。DA3 带来了两个关键的见解:单个纯粹的 Transformer 作为骨干网络就足够了,无需架构上的专业化;以及单一的深度射线预测目标使得复杂的**多任务学习**变得不必要。通过我们的师生训练范式,该模型在细节和泛化性方面
Mochi 1 是一款先进的开源视频生成模型,以其高保真度的运动和对文本提示的强力遵循而闻名。它在运动质量和提示对齐方面实现了显著飞跃,推动了开源视频创作的极限。Mochi 1 采用宽松的 Apache 2.0 许可证,可用于个人和商业用途,重点是照片级真实感视频生成,而非动画内容。该模型能够在 30 帧/秒的速度下产生流畅的视频输出,时长可达 5.4
Hunyuan3D-Part 是一个从图像生成 3D 部件的管道,包含两个关键组件:P3-SAM 和 X-Part。整体网格输入到部件检测模块 P3-SAM 中,以获取语义特征、部件分割和部件边界框。然后,X-Part 从 P3-SAM 的输出生成完整的部件。该管道能够从图像生成高质量的 3D 部件,并应用于计算机视觉、机器人和计算机辅助设计等各个领域
Hunyuan Video 1.5 是一款视频生成模型,仅用 83 亿参数即可提供顶级质量,显著降低了使用门槛。它可以在消费级 GPU 上流畅运行,使每位开发者和创作者都能轻松使用。此存储库提供了生成创意视频所需的实现和工具。该模型实现了最先进的视觉质量和运动连贯性,并支持在消费级 GPU 上高效推理。这一成就建立在几个关键组件之上,包括精心策划的数据
VideoFrom3D 从粗糙的几何体、摄像机轨迹和参考图像合成高质量的 3D 场景视频。该方法简化了 3D 图形设计工作流程,实现了灵活的设计探索和交付成果的快速制作。从粗糙几何体合成视频的一个简单方法可能是基于几何结构来调控视频扩散模型。然而,现有的视频扩散模型由于难以同时模拟视觉质量、运动和时间一致性,在生成复杂场景的高保真结果时存在困难。
Marble 是 World Labs 开发的首个商用生成式世界模型,该公司由人工智能先驱李飞飞领导。它专注于使用文本提示、图像、视频和 3D 布局图等各种输入方法生成可编辑且持久的 3D 环境。该产品提供高保真度的空间一致性,并支持对生成的世界进行无缝探索,使其适用于游戏开发、电影视觉效果、虚拟现实和机器人模拟等应用。Marble 的独特之处在于它允
SAM 3D 是一个强大的 3D 重建模型,能够从 2D 图像创建详细的 3D 场景。该模型是利用大规模真实世界数据来解决物理世界的复杂性和丰富性的一个重要进步。通过 SAM 3D,我们推出了两个新模型:SAM 3D Objects,它实现了物体和场景重建;SAM 3D Body,它专注于人体和形状估计。这两个模型都提供了强大、最先进的性能,将静态 2
Lumine AI 是一个先进的平台,专为开发能够在充满挑战的 3D 开放世界环境中执行复杂任务的通才智能体而设计。它采用了一种视觉-语言模型,该模型在一个端到端的框架内无缝集成了感知、推理和行动。该平台以 5 Hz 的频率处理原始像素数据,并将其转换为精确的 30 Hz 键盘和鼠标动作。这种高效的处理模式使人工智能能够执行各种活动,例如探索、解谜、战
TRELLIS 3D AI 是一款尖端的工具,旨在通过将标准的二维图像转换为详细的三维模型,彻底改变三维资产的创建过程。此过程由先进技术驱动,该技术分析上传图像的视觉数据,以重建复杂的几何形状并应用生动、准确的纹理。它经过精心设计,可利用独特的 SLAT 表示法来保持源材料的关键结构元素,从而实现专业级输出,使其可供广泛的创作者使用,这些创作者寻求高质
Banana AI 是一款尖端的、完全免费的照片编辑应用程序,它利用先进的生成模型的强大功能,彻底改变用户处理图像处理的方式。通过接受简单的文本指令,用户可以控制精确的编辑、应用全面的风格转换或重建上传图像中的视觉元素。这种由文本提示驱动的工作流程带来了一种直观且高效的编辑体验,在几秒钟内就能产生一致的高质量视觉效果,而无需具备复杂的图形设计软件的先验
VeeSpark 的 AI 视频生成器是一款功能强大的工具,旨在轻松将您的创意概念转化为引人入胜的视频。无论您是拥有完整的脚本、一系列故事板框架,还是仅仅拥有一个引人入胜的想法,我们的 AI 引擎都能高效地将您的输入转化为高质量的视频内容。这使其成为需要快速有效地制作引人入胜的视觉效果的内容创作者、营销专业人士和教育工作者的理想解决方案。该生成器简化了
VoxDeck 是一款人工智能演示文稿创作工具,它彻底改变了演示文稿的制作流程,将简单的文本提示或上传的材料转化为视觉效果惊艳的专业幻灯片。它擅长打造沉浸式、影院级的幻灯片体验,并运用 3D 图表、交互式视觉效果和逼真的头像等元素,动态地讲述和呈现内容。该工具旨在通过自动化大部分设计和创作流程,节省专业人士、教育工作者和商业用户的时间和精力,同时确保演
Ultra3D 是一个高效的 3D 生成框架,可在不影响质量的情况下显著加速稀疏体素建模。它利用紧凑的 VecSet 表示在第一阶段高效地生成粗略的对象布局,从而减少 token 数量并加速体素坐标预测。这种方法能够以 1024 的分辨率生成高分辨率 3D 图像,在视觉保真度和用户偏好方面均达到了最佳性能。
Ultra3D 的核
PhysX-3D 是一种端到端的基于物理的 3D 资源生成范式。它旨在通过提出 PhysXNet 来弥补基于物理标注的 3D 数据集中的关键空白。PhysXNet 是首个基于物理的 3D 数据集,系统地涵盖五个基本维度:绝对尺度、材质、可供性、运动学和功能描述。该数据集能够高效地从原始 3D 资源创建基于物理的资源,从而促进能够生成物理可信资源的 3D
SpatialTrackerV2 是一个用于 3D 点追踪的全新框架,可估算单目视频中任意 2D 像素的世界空间 3D 轨迹。与以往依赖离线深度和姿态估计器的方法不同,我们的方法将 3D 运动分解为场景几何、摄像机自运动和细粒度的逐点运动,所有这些都在一个完全可微分的端到端架构中进行。这种统一的设计支持跨多种数据源进行可扩展的训练,包括合成序列、摆拍的
Pixel3DMM 是一款经过微调的 DINO ViT,用于逐像素表面法线和 UV 坐标预测。它专为单图像 3D 人脸重建而设计,并利用了 DINO 基础模型的潜在特征。该模型引入了定制的表面法线和 UV 坐标预测头,并在三个高质量的 3D 人脸数据集上针对 FLAME 网格拓扑进行训练,最终生成了超过 1000 个身份和 976,000 张图像。这使
Direct3D-S2 是一个基于稀疏体积的可扩展 3D 生成框架,可在显著降低训练成本的同时实现卓越的输出质量。它引入了空间稀疏注意力 (SSA) 机制,显著提升了扩散变换器 (DiT) 在稀疏体积数据上的计算效率。这使得模型能够有效地处理稀疏体积内的大型标记集,使前向传播速度提升 3.9 倍,后向传播速度提升 9.6 倍。
字节跳动 Seed 1.5-VL 是一款强大高效的视觉语言基础模型,专为高级通用多模态理解和推理而设计。它以相对适中的架构实现了顶级性能,配备 532M 视觉编码器和 20B 活动参数 MoE LLM。该模型在复杂推理、OCR、图表理解、视觉基础构建、3D 空间理解和视频理解等多项功能方面均表现出色。
Seed1.5-